Nature|揭示人类内在无序蛋白质组的构象组合
加星标,再也不怕错过更新!方法见文末动图。
内在无序的蛋白质和区域(统称为IDRs)普遍存在于所有蛋白质组中,有助于形成生物功能,并与许多疾病有关。IDR具有多种瞬时形成的结构,并打破了传统的序列-结构-功能关系1。AlphaFold的发展使得在蛋白质组的尺度上预测折叠蛋白质的三维结构成为可能2。相比之下,人们对IDRs的构象性质缺乏了解,部分原因是无序蛋白质的序列保守性差,也只有少数蛋白被实验表征3。无法预测蛋白质组中IDRs的结构特性限制了我们对IDRs的功能作用以及进化形成过程的理解。
2024年 1 月 31 日,丹麦哥本哈根大学Kresten Lindorff-Larsen研究团队在Nature上发表了题为Conformational ensembles of the human intrinsically disordered proteome的研究性论文。
该研究开发了CALVADOS分子模型来生成IDRs的构象集合,从而从序列中预测它们的构象性质。作者使用该模型模拟了人类蛋白质组中几乎所有的IDR,展示了链的压缩如何与细胞功能和定位相关联,并利用在模拟数据基础上训练的机器学习模型,展示了同源物之间构象特性的保持。该研究结果概括了先前对单个蛋白质系统的研究,并举例说明了如何在蛋白质组尺度上将构象组合与细胞功能和定位、氨基酸序列、进化保守和疾病变异联系起来。
作者分析了20,588个全长人类蛋白的AlphaFold2模型,并使用低窗口平均pLDDT置信度评分作为疾病的预测因子来选择IDRs(图1a)。作者从15,424种不同的蛋白质中获得28,058个序列,对应于人类蛋白质组中35%的残基。所选IDRs的长度在30到1500个残基之间,中位数为80个残基。然后,作者使用实验参数化和广泛验证的残基级CALVADOS模型对所有28,058个序列进行了分子动力学模拟,以生成每个无序序列的构象集合,并计算这些集合的构象性质分布(图1b)。作为独立于序列长度的链紧凑度量,作者计算了表观Flory缩放指数ν,以及端到端距离的均方与旋转半径的均方之比。大多数模拟的IDRs构象集合接近理想参考状态,只有2%的IDRs明显更紧凑,而32%的序列采取更扩展的构象(图1c)。
图1. 用于获取人类蛋白质组中所有IDRs构象特性方法的示意图
尽管具有不同净电荷序列的构象性质和相行为之间的耦合可能会中断,但同型相分离的蛋白质的IDRs往往比未相分离的蛋白质的IDRs具有更低的ν值,因此作者接下来试图研究IDR压缩与相应全长蛋白的生物学功能和细胞定位的关系。作者使用Brunner-Munzel测试来评估具有给定基因本体(GO)项的蛋白质,发现具有较大或较小ν值的IDRs的概率大于没有检查术语的蛋白质。GO 分析显示,在结合染色质和DNA顺式调控序列的蛋白质中,紧凑IDRs显著富集(图 2a)。这些数据与具有紧凑IDRs的蛋白质及其在染色质和核小体上的定位相关联(图 2b)。相反,扩展的IDRs与具有G蛋白偶联活性或结合GTP的蛋白质显著相关,并在线粒体和内体中富集。同时作者还注意到GO分析中出现的显著关联并不意味着同一蛋白质中的不同IDRs具有相似的构象属性。
图2. IDR紧凑性与GO注释之间的关联分析
虽然IDRs的位置序列通常保守性较差,但氨基酸组成和模式化已被证明可用于预测构象和相性质,以及识别功能相似的IDRs。同样,疏水模式化调节链紧凑性和IDRs形成凝聚物及避免聚集的倾向。受先前对单个蛋白质家族的研究的启发,作者使用全套IDR序列来确定影响人类IDRs链紧凑性的序列属性。随着紧凑性的增加,序列显示出增加的平均粘性⟨λ⟩,直到ν≈0.55,之后⟨λ⟩趋于平稳,并进一步减少(图3a)。另一方面,对于ν < 0.55的序列,随着紧凑性的增加,带电残基的分离突然增加(图3b,c,g)。这些趋势表明,尽管疏水性被用来驱动一些紧凑性,但更极端的紧凑性是由相反电荷残基块之间的静电相互作用驱动的。对于在0.45≤ν < 0.55范围内的大多数人类IDRs,⟨λ⟩相对恒定,而z(δ+−)和z(Ω−)单调地随着ν的增加而减小。相反,z(Ωπ)和SHD表明,当ν≈0.5时,芳香族的聚类程度随着紧凑性的降低而增加,这与之前的观察结果一致,即芳香族残基在许多致密的朊病毒样结构域中混合得很好(图3d)。每个残基的构象熵Sconf/N在ν≈0.5附近具有最小值,并且对于⟨λ⟩值较小的极度紧凑链比对0.4 < ν < 0.5的粘性链具有更大的值(图3e,h),这表明静电驱动的紧凑性比疏水驱动的坍塌有更多的异质构象集合。紧凑型和扩展型IDRs都具有大量带电残基(FCR)的特征,而扩展型序列较短,呈酸性,且精氨酸残基较少。相反,紧凑型IDRs相当长,电荷分离,富含带正电荷的残基(图3f)。
图3. 决定紧凑性的序列特征
接下来作者使用 SVR 模型,计算了同源IDRs集合(26,839个人类IDRs及其1,088,250个同源序列)的ν和Sconf/N,发现每个残基的紧凑性和构象熵在人类序列与其同源序列之间高度相关(图4a,b)。并且决定人类和同源序列紧凑性的序列特征之间存在高度相关性,特别是平均链粘性和电荷模式(图4c-f)。这些发现与之前对hnRNPA1和FET家族蛋白的同源转录调控因子和朊病毒样结构域的序列分析一致,表明控制选择性区隔化和链紧凑性的序列特征是受进化限制的。
图4. 构象和序列性质的守恒
上述结果表明,缩放指数等全局链性质在进化过程中一般是保守的;然而,情况并非总是如此。作者选择了由十个以上不同长度序列组成的同源物家族,其中最短序列和最长序列的长度相差至少50个残基。对于每个家族,作者计算了ν和N之间的Pearson相关系数r和双侧P值(图5a-d)。结果表明构象缓冲在许多无序蛋白家族中广泛存在。最后考虑到紧缩性的进化保守性,以及它与生物学功能和细胞定位的显著关联,作者试图研究野生型IDR序列紧缩性与致病变异发生率之间的潜在关系。作者在ClinVar数据库中找到了2888个致病变异和15557个良性变异,使用Brunner-Munzel检验发现已知的致病变异比良性变异更有可能出现在每个残基构象熵较低的IDRs中(图5e),且致病变异往往位于pLDDT得分高于良性变异的区域(图5f)。相比之下,在排除100个涉及神经源性位点缺口同源蛋白3细胞外区域半胱氨酸残基的变异后,致病性和紧缩性之间的相关性显著降低(图5g)。
图5. 全蛋白质组范围内搜索构象缓冲以及IDRs的构象属性与致病错义变异发生率之间的关系
综上所述,该研究系统分析了人类IDRs的序列、构象组合与生物学功能之间的关系。研究的构象集合提供一个独特的数据集继续扩展对这类未被研究的蛋白质的了解,包括训练模型来预测构象特性或生成构象集合。该研究也为理解IDR生物学中的同型和异型相互作用提供了一个起点,促进对 IDR生物学功能、细胞定位、进化和变异效应的进一步研究。
供稿 | 娄鑫垚
审稿 | 丛野
责编 | 囡囡
设计 / 排版 | 可洲 王婧曈
微信号:FRCBS-THU
因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群
原文链接
https://doi.org/10.1038/s41586-023-07004-5
参考文献
参考文献
1. Holehouse, A. S. & Kragelund, B. B. The molecular basis for cellular function of intrinsically disordered protein regions. Nat. Rev. Mol. Cell Biol. (2023).
2. Akdel, M. et al. A structural biology community assessment of AlphaFold2 applications. Nat. Struct. Mol. Biol. 29, 1056–1067 (2022).
3. Ghafouri, H. et al. PED in 2024: improving the community deposition of structural ensembles for intrinsically disordered proteins. Nucleic Acids Res. 52, D536–D544 (2024).
精彩回顾
精彩回顾
特别提示
微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!
方法超简单,只需3秒钟!
点击上方卡片
关注我们吧
THE END
我知道你“在看”哟